胶囊网络(CAPSNET)旨在将图像解析为由对象,部分及其关系组成的层次组件结构。尽管它们具有潜力,但它们在计算上还是很昂贵的,并且构成了一个主要的缺点,这限制了在更复杂的数据集中有效利用这些网络的限制。当前的CAPSNET模型仅将其性能与胶囊基线进行比较,并且在复杂任务上的基于CNN的DEEP基于DEEP基于CNN的级别的性能。本文提出了一种学习胶囊的有效方法,该胶囊通过一组子封装来检测输入图像的原子部分,并在其上投射输入向量。随后,我们提出了Wasserstein嵌入模块,该模块首先测量由子胶囊建模的输入和组件之间的差异,然后根据学习的最佳运输找到它们的对齐程度。该策略利用基于其各自的组件分布之间的相似性来定义输入和子胶囊之间的一致性的新见解。我们提出的模型(i)是轻量级的,允许将胶囊应用于更复杂的视觉任务; (ii)在这些具有挑战性的任务上的表现要好于或与基于CNN的模型相提并论。我们的实验结果表明,Wasserstein嵌入胶囊(Wecapsules)在仿射转换方面更加强大,有效地扩展到较大的数据集,并且在几个视觉任务中胜过CNN和CAPSNET模型。
translated by 谷歌翻译